本文对当前复制Openai的O1模型功能的方法进行了批判性检查,特别关注广泛但通常未公开的知识蒸馏技术的使用。虽然我们以前的工作(第1部分(Qin等人,2024))探讨了O1复制的基本技术途径,这项研究揭示了O1的API的简单蒸馏,并结合了监督的微调,可以在复杂的数学推理任务上实现卓越的性能。通过广泛的实验,我们表明,基本模型对数万个样本O1延伸的长期思考链的微调优于美国邀请赛数学考试(AIME),其技术复杂性最少。此外,我们的调查范围超出了数学推理,可以探索跨不同任务的O1延伸模型的概括能力:幻觉,安全性和开放域QA。值得注意的是,尽管仅对数学解决问题的数据进行了培训,但我们的模型证明了对开放式质量QA任务的强烈概括,并且在微调后变得明显降低了对无粘液的影响。我们故意将这一发现公开以促进AI研究中的透明度,并挑战该领域中晦涩的技术主张的当前趋势。这种教育的命令不仅代表了技术考虑因素,而且代表了一个基本的人类使命,它将影响AI创新的未来。1相关资源将在https://github.com/gair-nlp/o1-journey上找到。我们的工作包括:(1)蒸馏过程及其有效性的详细技术阐述,(2)一个全面的基准测试框架,用于评估和分类O1复制尝试,基于其技术透明度和可重复性,(3)对痛苦的限制和潜在的限制,我们对痛苦的限制和潜在的风险进行了关键的讨论:我们的分析:crcial crcial crucial:crucial clucial clucial clucial clucial clucial clucial clucial clucial culminates''''''系统很重要,以第一原则思维为基础的研究人员的发展至关重要。
主要关键词
![arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第1页](/bimg/c/c1ad21db506a8eaecf953eda41142bce361b3b26.webp)
![arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第2页](/bimg/b/bf6fd565f4dd2ef237256ccc28290f50e9bab8bd.webp)
![arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第3页](/bimg/f/f709fe97dc9306e6ec9bad960f74f702a8922227.webp)
![arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第4页](/bimg/c/cbe28376b15d9e07f80b0157ea8d696b3cda7f81.webp)
![arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第5页](/bimg/6/64c9cc90623f7842bdeced77b0c853f96e3c3787.webp)
